Machine-Generated Text (MGT) detection, a task that discriminates MGT from Human-Written Text (HWT), plays a crucial role in preventing misuse of text generative models, which excel in mimicking human writing style recently. Latest proposed detectors usually take coarse text sequence as input and output some good results by fine-tune pretrained models with standard cross-entropy loss. However, these methods fail to consider the linguistic aspect of text (e.g., coherence) and sentence-level structures. Moreover, they lack the ability to handle the low-resource problem which could often happen in practice considering the enormous amount of textual data online. In this paper, we present a coherence-based contrastive learning model named CoCo to detect the possible MGT under low-resource scenario. Inspired by the distinctiveness and permanence properties of linguistic feature, we represent text as a coherence graph to capture its entity consistency, which is further encoded by the pretrained model and graph neural network. To tackle the challenges of data limitations, we employ a contrastive learning framework and propose an improved contrastive loss for making full use of hard negative samples in training stage. The experiment results on two public datasets prove our approach outperforms the state-of-art methods significantly.
translated by 谷歌翻译
As the basis for prehensile manipulation, it is vital to enable robots to grasp as robustly as humans. In daily manipulation, our grasping system is prompt, accurate, flexible and continuous across spatial and temporal domains. Few existing methods cover all these properties for robot grasping. In this paper, we propose a new methodology for grasp perception to enable robots these abilities. Specifically, we develop a dense supervision strategy with real perception and analytic labels in the spatial-temporal domain. Additional awareness of objects' center-of-mass is incorporated into the learning process to help improve grasping stability. Utilization of grasp correspondence across observations enables dynamic grasp tracking. Our model, AnyGrasp, can generate accurate, full-DoF, dense and temporally-smooth grasp poses efficiently, and works robustly against large depth sensing noise. Embedded with AnyGrasp, we achieve a 93.3% success rate when clearing bins with over 300 unseen objects, which is comparable with human subjects under controlled conditions. Over 900 MPPH is reported on a single-arm system. For dynamic grasping, we demonstrate catching swimming robot fish in the water.
translated by 谷歌翻译
暴露于霉菌孢子和花粉等生物 - 大紫胶会导致不利的健康影响。需要一种便携式且具有成本效益的设备来长期监测和量化各种生物紫胶。为了满足这一需求,我们提出了一种移动性和成本效益的无标签生物透射剂传感器,该传感器拍摄了由虚拟撞击器集中的流动颗粒物的全息图像,该图像有选择地放慢速度,并引导颗粒大于6微米,以飞过大于6微米成像窗口。流动的颗粒被脉冲激光二极管照亮,在无镜头移动成像设备中的CMOS图像传感器上施放了其内联全息图。该照明包含三个短脉冲,在一个脉冲中流动粒子可以忽略不计,同一粒子的一式三份全息图记录在单个框架上,然后才退出成像视野视野,从而揭示了每个粒子的不同视角。虚拟撞击器中的颗粒通过差异检测方案进行定位,并且深层神经网络基于获得的全息图像,以无标签的方式对气溶胶类型进行了分类。我们使用不同类型的花粉(即,百慕大,榆树,橡树,松树,小麦和小麦)使用虚拟撞击器证明了这种移动生物 - 大气探测器的成功,并实现了92.91%的盲目分类精度。这种移动性和成本效益的设备重约700 g,可用于长时间对各种生物透气体的无标记感应和量化,因为它基于无弹药的虚拟撞击器,该虚拟撞击器不会捕获或固定颗粒物。
translated by 谷歌翻译
从点云中检测3D对象是一项实用但充满挑战的任务,最近引起了越来越多的关注。在本文中,我们提出了针对3D对象检测的标签引导辅助训练方法(LG3D),该方法是增强现有3D对象检测器的功能学习的辅助网络。具体而言,我们提出了两个新型模块:一个标签 - 通道诱导器,该模块诱导器将框架中的注释和点云映射到特定于任务的表示形式和一个标签 - 知识式插曲器,该标签知识映射器有助于获得原始特征以获得检测临界表示。提出的辅助网络被推理丢弃,因此在测试时间没有额外的计算成本。我们对室内和室外数据集进行了广泛的实验,以验证我们的方法的有效性。例如,我们拟议的LG3D分别在SUN RGB-D和SCANNETV2数据集上将投票人员分别提高了2.5%和3.1%的地图。
translated by 谷歌翻译
阴影对于逼真的图像合成至关重要。基于物理的阴影渲染方法需要3D几何形状,这并不总是可用。基于深度学习的阴影综合方法从光信息到对象的阴影中学习映射,而无需明确建模阴影几何形状。尽管如此,它们仍然缺乏控制,并且容易出现视觉伪像。我们介绍了Pixel Heigh,这是一种新颖的几何表示,它编码对象,地面和相机姿势之间的相关性。像素高度可以根据3D几何形状计算,并在2D图像上手动注释,也可以通过有监督的方法从单视RGB图像中预测。它可用于根据投影几何形状计算2D图像中的硬阴影,从而精确控制阴影的方向和形状。此外,我们提出了一个数据驱动的软影子生成器,以基于软性输入参数将软性应用于硬阴影。定性和定量评估表明,所提出的像素高度显着提高了阴影产生的质量,同时允许可控性。
translated by 谷歌翻译
基于拉曼扩增的物理特征,我们提出了一个基于神经网络(NN)和线性回归的三步建模方案。与基于纯NN的方法相比,通过模拟证明了更高的精度,较少的数据需求和较低的计算复杂性。
translated by 谷歌翻译
图表无处不在地编码许多域中现实世界对象的关系信息。图形生成的目的是从类似于观察到的图形的分布中生成新图形,由于深度学习模型的最新进展,人们的关注越来越大。在本文中,我们对现有的图形生成文献进行了全面综述,从各种新兴方法到其广泛的应用领域。具体来说,我们首先提出了深图生成的问题,并与几个相关的图形学习任务讨论了它的差异。其次,我们根据模型架构将最新方法分为三类,并总结其生成策略。第三,我们介绍了深图生成的三个关键应用领域。最后,我们重点介绍了深图生成的未来研究中的挑战和机遇。
translated by 谷歌翻译
由于缺乏可用的数据集,模型和标准评估指标,因此以多模式数据为条件的现实,生动和类似人类的合成对话手势仍然是一个未解决的问题。为了解决这个问题,我们构建了人体表达式 - aauio-Text数据集,Beat,它具有76小时,高质量的,高质量的多模式数据,这些数据从30位扬声器中捕获了八种不同的情绪,用四种不同的语言,ii)32数以百万计的框架级别的情感和语义相关注释。我们对BEAT的统计分析表明,除了与音频,文本和说话者身份的已知相关性外,对话式手势与面部表情,情感和语义的相关性。基于此观察结果,我们提出了一个基线模型,即级联运动网络(CAMN),该模型由以上六种模式组成,该模式在级联的架构中建模以进行手势合成。为了评估语义相关性,我们引入了指标,语义相关性召回(SRGR)。定性和定量实验证明了指标的有效性,地面真相数据质量以及基线的最先进性能。据我们所知,BEAT是用于研究人类手势的最大运动捕获数据集,这可能有助于许多不同的研究领域,包括可控的手势合成,跨模式分析和情感手势识别。数据,代码和模型可在https://pantomatrix.github.io/beat/上获得。
translated by 谷歌翻译
我们呈现母语读者(NCR),这是一个新的机器阅读理解(MRC)数据集,在现代和古典中文中具有特别长的文章。来自中国高中课程的考试问题收集了NCR,旨在评估中国母语的语言能力。现有的中国MRC数据集是特定于域的或专注于现代中文中数百个字符的短文。相比之下,NCR包含8390个文件,平均长度为1024个字符,涵盖了各种中文写作风格,包括现代文章,古典文学和古典诗歌。总共有20477个关于这些文件的问题也需要强烈的推理能力和常识来弄清楚正确的答案。我们使用流行的中国预训练模型实现了多个基线模型,并使用我们的数据集推出了在线竞争,以检查当前方法的限制。最佳型号达到59%的测试精度,而人类评估则显示平均精度为79%,这表明当前MRC模型和母语扬声器之间的显着性能差距。我们在https://sites.google.com/view/native-chinese-reader/释放DataSet。
translated by 谷歌翻译
Unilog:部署一个模型并专门为所有日志分析任务专门
translated by 谷歌翻译